Analisando dados musicais com R

utilizando pacotes para processamento de texto

04/12/2024

Oi, eu sou a Bianca!

  • 🎲 Jornalista pela USP, especialista em Jornalismo de Dados, Automação e Data Storytelling pelo Insper
  • Trabalho com jornalismo de dados na Agência Pública
  • 👩🏿‍🔬 Biomédica e mestre em Ciências pela Unifesp
  • ❤️ Amo desenhar, show, sescs e música emo

Objetivos

  • Explorar os pacotes tidytext, wordcloud,
  • Aplicar as funções em um corpus
  • Introduzir técnicas de análise de dados musicais.
  • Aplicar processamento de texto para explorar letras e metadados.
  • Usar pacotes do R para visualizações sobre músicas

Por que analisar texto é importante?

  • Sentimento, temas, frequência de palavras.
  • Música - texto - dado não-estruturado - dado estruturado –> objeto de análise!

Algumas definições

Algumas definições

Um corpus é uma coleção de textos usada para análise. Exemplo: Todas as letras de músicas de um artista, um gênero musical ou de um período específico. Um corpus pode ser usado para identificar padrões, como temas recorrentes ou tendências linguísticas.

Um token é uma unidade mínima de texto, geralmente uma palavra.

Exemplo: Na frase “Fiel como um cão”, os tokens são: “fiel”, “como”, “um”, “cão”.

Bigramas são pares consecutivos de palavras em um texto.

Exemplo: No verso “Porque chumbo trocado não dói” os bigramas são “Porque chumbo”, “chumbo trocado”, “trocado não”, “não dói”

Palavras comuns que geralmente não agregam significado em uma análise, como “o”, “de”, “e”.

Exemplo: “Minha vó é show de bola / Aprendeu lá em Angola / Encontrou meu corpo aberto e fechou” - sem as stopwords: “minha vó é bola aprendeu lá angola encontrou meu corpo aberto fechou”

Fontes de dados:

  • APIs (Spotify, Genius, Vagalume, etc.),

  • Planilhas com metadados musicais,

  • Rankings (Billboard, Spotify…)

  • Seus dados!

O que investigar em um dataset musical: artista, album, ano, letras, gênero, popularidade.

Pacotes úteis

  • dplyr (manipulação de dados);

  • text (análise de texto);

  • ggplot2 (visualização);

  • tidytext (NLP para texto);

  • spotifyr (coleta de dados da API Spotify).

Exemplos e referências

tayloR

tayloR

Fluxo de trabalho:

  • Limpeza e tokenização (tidytext);
  • Análise de frequência;
  • Nuvem de palavras e associações;
  • Análise de sentimentos em letras de músicas.

E o que vamos analisar hoje?

maRRom